Galileo Computing < openbook > Galileo Computing - Professionelle Bücher. Auch für Einsteiger.

...powered by www.netzwerkartist.de...

Inhaltsverzeichnis
Vorwort
1 Java ist auch eine Sprache
2 Sprachbeschreibung
3 Klassen und Objekte
4 Der Umgang mit Zeichenketten
5 Mathematisches
6 Eigene Klassen schreiben
7 Exceptions
8 Die Funktionsbibliothek
9 Threads und nebenläufige Programmierung
10 Raum und Zeit
11 Datenstrukturen und Algorithmen
12 Dateien und Datenströme
13 Die eXtensible Markup Language (XML)
14 Grafische Oberflächen mit Swing
15 Grafikprogrammierung
16 Das Netz
17 JavaServer Pages und Servlets
18 Verteilte Programmierung mit RMI und Web–Services
19 Applets, Midlets und Sound
20 Datenbankmanagement mit JDBC
21 Reflection und Annotationen
22 Komponenten durch Bohnen
23 Logging und Monitoring
24 Sicherheitskonzepte
25 Java Native Interface (JNI)
26 Dienstprogramme für die Java-Umgebung
A Die Begleit-DVD
Index

Download:
- ZIP, ca. 12,5 MB
Buch bestellen

Website zum Buch
Weblog des Autors
Ihre Meinung?

Spacer
 <<   zurück
Java ist auch eine Insel von Christian Ullenboom
Programmieren mit der Java Standard Edition Version 6
Buch: Java ist auch eine Insel

Java ist auch eine Insel
6., akt. und erw. Aufl., mit DVD
1.454 S., 49,90 Euro
Galileo Computing
ISBN 3-89842-838-9
gp 13 Die eXtensible Markup Language (XML)
  gp 13.1 Auszeichnungssprachen
    gp 13.1.1 Die Standard Generalized Markup Language (SGML)
    gp 13.1.2 Extensible Markup Language (XML)
  gp 13.2 Eigenschaften von XML-Dokumenten
    gp 13.2.1 Elemente und Attribute
    gp 13.2.2 Beschreibungssprache für den Aufbau von XML-Dokumenten
    gp 13.2.3 Schema – eine Alternative zu DTD
    gp 13.2.4 Namensraum (Namespace)
    gp 13.2.5 XML-Applikationen
  gp 13.3 Die Java-APIs für XML
    gp 13.3.1 Das Document Object Model (DOM)
    gp 13.3.2 Simple API for XML Parsing (SAX)
    gp 13.3.3 Pull-API StAX
    gp 13.3.4 Java Document Object Model (JDOM)
    gp 13.3.5 JAXP als Java-Schnittstelle zu XML
    gp 13.3.6 DOM-Bäume einlesen mit JAXP
  gp 13.4 Serielle Verarbeitung mit StAX
    gp 13.4.1 Unterschiede der Verarbeitungsmodelle
    gp 13.4.2 XML-Dateien mit dem Cursor-Verfahren lesen
    gp 13.4.3 XML-Dateien mit dem Iterator-Verfahren verarbeiten
    gp 13.4.4 Mit Filtern arbeiten
    gp 13.4.5 XML-Dokumente schreiben
  gp 13.5 Serielle Verarbeitung von XML mit SAX
    gp 13.5.1 Schnittstellen von SAX
    gp 13.5.2 SAX-Parser erzeugen
    gp 13.5.3 Die wichtigsten Methoden der Schnittstelle ContentHandler
    gp 13.5.4 ErrorHandler und EntityResolver
  gp 13.6 XML-Dateien mit JDOM verarbeiten
    gp 13.6.1 JDOM beziehen
    gp 13.6.2 Paketübersicht
    gp 13.6.3 Die Document-Klasse
    gp 13.6.4 Eingaben aus der Datei lesen
    gp 13.6.5 Das Dokument im XML-Format ausgeben
    gp 13.6.6 Der Dokumenttyp
    gp 13.6.7 Elemente
    gp 13.6.8 Zugriff auf Elementinhalte
    gp 13.6.9 Liste mit Unterelementen erzeugen
    gp 13.6.10 Neue Elemente einfügen und ändern
    gp 13.6.11 Attributinhalte lesen und ändern
    gp 13.6.12 XPath
  gp 13.7 Transformationen mit XSLT
    gp 13.7.1 Templates und XPath als Kernelemente von XSLT
    gp 13.7.2 Umwandlung von XML-Dateien mit JDOM und JAXP
  gp 13.8 Java Architecture for XML Binding (JAXB)
  gp 13.9 HTML-Dokumente einlesen
  gp 13.10 Zum Weiterlesen


Galileo Computing

13.4 Serielle Verarbeitung mit StAX  downtop

Java 6 integriert die Pull-API StAX inklusive Implementierung als Teil der Standard-Bibliothek. Um die API vor Java 6 nutzen zu können, kann unter http://stax.codehaus.org/ eine Implementierung der API bezogen werden.

Die allgemeine Vorgehensweise zum Parsen eines XML-Dokuments ist folgende:

  • Erzeuge eine XMLInputFactory.
  • Erzeuge den passenden Parser.
  • Wähle XMLStreamReader für die Cursor-Verarbeitung oder XMLEventReader für die Iterator-Verarbeitung.
  • Erfrage mit next() die nächste Komponente des XML-Dokuments.
  • Ermittle den Typ der Komponente und verarbeite ihn.

Die Unterschiede zwischen der Cursor- und der Iterator-Verarbeitung sind auf den ersten Blick nicht eindeutig. Im Folgenden werden die Unterschiede kurz vorgestellt.


Galileo Computing

13.4.1 Unterschiede der Verarbeitungsmodelle  downtop

Beide Verarbeitungsmodelle bieten ähnliche Methoden, und die Verarbeitung der Inhalte ist auch sehr ähnlich. Der wesentliche Unterschied ist die Art und Weise, wie die Komponenten des XML-Dokuments geliefert werden:

  • Bei der Cursor-Verarbeitung wird die Komponente direkt mit dem Parser-Objekt verarbeitet. Bei der Cursor-Verarbeitung ist die zentrale Klasse der XMLStreamReader, mit dem auch auf die Inhalte der XML-Datei zugegriffen wird. Da diese Klasse ebenso verwendet wird, um auf das nächste Element der XML-Datei zugreifen zu können, steht zu einem Zeitpunkt immer nur eine Komponente des XML-Dokuments zur Verfügung. Der Vorteil ist die hohe Effizienz, da bei der Verarbeitung keine neuen Objekte erzeugt werden.
  • Bei der Iterator-Verarbeitung wird ein XMLEvent-Objekt geliefert, das anderen Funktionen übergeben und in einer Datenstruktur gespeichert werden kann.

StAX ist eine symmetrische API, was bedeutet, es gibt Klassen zum Lesen und auch Schreiben von XML-Dokumenten. So wie es für das Lesen die Prinzipien Cursor und Iterator gibt, so bietet die StAX-API die Klassen XMLStreamWriter und XMLEventWriter. Damit ist es möglich, Elemente, die über die Reader gelesen werden, an die Writer zu übergeben und damit Änderungen an den Inhalten zu schreiben.


Galileo Computing

13.4.2 XML-Dateien mit dem Cursor-Verfahren lesen  downtop

Zunächst muss ein Parser erzeugt werden, mit dem das XML-Dokument verarbeitet werden soll.

Listing 13.6    com/javatutor/insel/stax/XMLStreamReaderDemo.java, Ausschnitt

Inputstream in = new FileInputStream( "party.xml" ); 
XMLInputFactory factory = XMLInputFactory.newInstance(); 
XMLStreamReader parser = factory.createXMLStreamReader( in );

Der Parsertyp iteriert über die XML-Datei mit einer Tiefensuche. Der Parser liefert beim Verarbeiten eine Reihe von Events, was für jede Komponente ein ganzzahliger Wert ist. Die Eventtypen sind als Konstanten in der Klasse XMLStreamConstants festgelegt. Der Parser liefert die folgenden Elemente:

  • START_DOCUMENT: Der Beginn der XML-Datei. Bei diesem Event können Eigenschaften wie das Encoding des Dokuments ermittelt werden.
  • END_DOCUMENT: Hier steht nur die Methode close() zum Schließen der Eingabe zur Verfügung.
  • START_ELEMENT: Liefert den Typ, wenn ein Element beginnt. Die Attribute und der Namensraum eines Elements können hier ausgewertet werden.
  • END_ELEMENT: Wenn das Ende eines Elements erreicht ist.
  • CHARACTERS: Text innerhalb von Elementen. Text kann auf Whitespace getestet werden.
  • ENTITY_REFERENCE: Wenn Entitäten in der XML-Datei auftauchen. Üblicherweise werden Entitäten zuerst aufgelöst und dann als CHARACTERS-Event geliefert.
  • DTD: Mit diesem Event wird die DTD als String geliefert, und es ist möglich, auf Teile der DTD zuzugreifen.
  • COMMENT: Kommentare in der XML-Datei.
  • PROCESSING_INSTRUCTION: Verarbeitungsanweisungen wie Stylesheet-Angaben.

Die Events ATTRIBUTE und NAMESPACE liefert der Parser nur in Ausnahmefällen. Inhalte von Attributen sowie die Namensraumdaten lassen sich beim Event START_ELEMENT erfragen.

Passend zum Event sind verschiedene Methodenaufrufe gültig, etwa getAttributeCount() im Fall eines Elements, das die Anzahl Attribute liefert. Mit einer Schleife und einer switch-Anweisung lassen sich die Inhalte der XML-Datei dann einfach auswerten.

Listing 13.7    com/javatutor/insel/stax/XMLStreamReaderDemo.java, Ausschnitt

StringBuilder spacer = new StringBuilder(); 
while ( parser.hasNext() ) 
{ 
  int event = parser.next(); 
  System.out.println( "Event: " + event ); 
  switch ( event ) 
  { 
    case XMLStreamConstants.START_DOCUMENT: 
      System.out.println( "START_DOCUMENT: " 
                          + parser.getVersion() ); 
      break; 
    case XMLStreamConstants.END_DOCUMENT: 
      System.out.println( "END_DOCUMENT: " ); 
      parser.close(); 
      break; 
    case XMLStreamConstants.NAMESPACE: 
      System.out.println( "NAMESPACE: " 
                          + parser.getNamespaceURI() ); 
      break; 
    case XMLStreamConstants.START_ELEMENT: 
      spacer.append( "  " ); 
      System.out.println( spacer.toString() 
                          + "START_ELEMENT: " 
                          + parser.getLocalName() ); 
      // Der Event XMLStreamConstants.ATTRIBUTE wird nicht geliefert! 
      for ( int i = 0; i < parser.getAttributeCount(); i++ ) 
        System.out.println( spacer.toString() + "  Attribut: " 
                            + parser.getAttributeLocalName( i ) 
                            + " Wert: " + parser.getAttributeValue( i ) ); 
      break; 
    case XMLStreamConstants.CHARACTERS: 
      if ( ! parser.isWhiteSpace() ) 
        System.out.println( spacer.toString() 
                            + "  CHARACTERS: " 
                            + parser.getText() ); 
      break; 
    case XMLStreamConstants.END_ELEMENT: 
      System.out.println( spacer.toString() 
                          + "END_ELEMENT: " 
                          + parser.getLocalName() ); 
      spacer.delete( (spacer.length() - 2), spacer.length() ); 
      break; 
    case XMLStreamConstants.ATTRIBUTE: 
      // Wird vom XMLStreamReader beim Parsen eines XML-Dokuments nicht 
      // geliefert. 
      // Dieser Event kann im Zuammenhang mit XPath auftreten, wenn der 
      // Ausdruck ein Attribut als Rückgabe liefert. Beim Parsen von 
      // XML-Dokumenten werden Attribute anhand der Elemente geliefert. 
      // break; 
    default : 
      break; 
  } 
}

Dieses Beispiel demonstriert das Lesen einer XML-Datei mit dem Cursor-Verfahren. Der folgende Abschnitt zeigt die Verarbeitung mit dem Iterator-Verfahren.


Galileo Computing

13.4.3 XML-Dateien mit dem Iterator-Verfahren verarbeiten  downtop

Die Verarbeitung mit der Iterator-Variante der StAX-API ist ein wenig komplizierter, aber auch viel flexibler. Es wird nicht direkt mit dem allgemeinen Parser-Objekt auf die Daten zugegriffen, sondern es wird bei jeder Iteration ein XMLEvent Objekt erzeugt. Mit diesem Objekt kann der Typ des Events ermittelt und ganz ähnlich zur Cursor-API ausgewertet werden.

Am Anfang wird ein Parser vom Typ XMLEventReader erzeugt, und in einer Schleife werden die einzelnen Komponenten ausgewertet:

Listing 13.8    com/javatutor/insel/stax/XMLEventReaderDemo.java, main()

InputStream in = new FileInputStream( "party.xml" ); 
XMLInputFactory factory = XMLInputFactory.newInstance(); 
XMLEventReader parser = factory.createXMLEventReader( in ); 
StringBuilder spacer = new StringBuilder(); 
while ( parser.hasNext() ) 
{ 
  XMLEvent event = parser.nextEvent(); 
  switch ( event.getEventType() ) 
  { 
    case XMLStreamConstants.START_DOCUMENT: 
      System.out.println( "START_DOCUMENT:" ); 
      break; 
    case XMLStreamConstants.END_DOCUMENT: 
      System.out.println( "END_DOCUMENT:" ); 
      parser.close(); 
      break; 
    case XMLStreamConstants.START_ELEMENT: 
      StartElement element = event.asStartElement(); 
      spacer.append( "  " ); 
      System.out.println( spacer.toString() 
                          + "START_ELEMENT: " 
                          + element.getName() ); 
      for ( Iterator<?> attributes = element.getAttributes(); 
            attributes.hasNext(); ) 
      { 
        Attribute attribute = (Attribute) attributes.next(); 
        System.out.println( spacer.toString() + "  Attribut: " 
                            + attribute.getName() + " Wert: " 
                            + attribute.getValue() ); 
      } 
      break; 
    case XMLStreamConstants.CHARACTERS: 
      Characters characters = event.asCharacters(); 
      if ( ! characters.isWhiteSpace() ) 
        System.out.println( spacer.toString() 
                            + "  CHARACTERS: " 
                            + characters.getData() ); 
      break; 
    case XMLStreamConstants.END_ELEMENT: 
      System.out.println( spacer.toString() 
                          + "END_ELEMENT: " 
                          + event.asEndElement().getName() ); 
      spacer.delete( (spacer.length() - 2), spacer.length() ); 
      break; 
    case XMLStreamConstants.ATTRIBUTE: 
      break; 
    default : 
      break; 
  } 
}

Diese Form der Verarbeitung sieht auf den ersten Blick komplizierter aus, bietet aber zusätzliche Möglichkeiten, weil die erzeugten Objekte für die weitere Verarbeitung zur Verfügung stehen.


Galileo Computing

13.4.4 Mit Filtern arbeiten  downtop

Mit Hilfe von Filtern gibt es die Möglichkeit, nur Teile eines XML-Dokuments zu parsen. Diese Filter werden durch die Implementierung einer der Schnittstellen javax.xml.stream.EventFilter (für die XML-Events) oder javax.xml.stream.StreamFilter (für die XMLStream-Reader) programmiert. Es muss lediglich die Methode accept() implementiert und ein boolean-Wert zurückgegeben werden. Als Parameter erwartet diese Methode entweder einen javax.xml.stream.events.XMLEvent bei der Iterator-Variante oder einen XMLStreamReader bei der Cursor-Variante. Dazu ein Beispiel: Ein Filter soll für die Iterator-Variante die schließenden Tags auslassen.

Listing 13.9    com/javatutor/insel/stax/PartyEventFilter.java

package com.javatutor.insel.stax; 
 
import javax.xml.stream.EventFilter; 
import javax.xml.stream.events.XMLEvent; 
 
public class PartyEventFilter implements EventFilter 
{ 
  public boolean accept( XMLEvent event ) 
  { 
    return ! event.isEndElement(); 
  } 
}

Der Filter wird beim Erzeugen des Parsers mit der XMLInputFactory und dem vorhandenen XMLEventReader erzeugt. Dazu ein Beispiel zur Erzeugung des Parsers mit dem Event-Filter:

XMLEventReader filteredParser = factory.createFilteredReader( parser, 
  new PartyEventFilter() );

Dieses Verfahren der Dekoration wird in ähnlicher Form bei Streams verwendet.

Das Erzeugen eines Parsers mit einem Filter für die Cursor-Variante funktioniert analog. Mit Filtern bietet die API eine einfache Lösung, wenn nur bestimmte Teile des XML-Dokuments verarbeitet werden sollen.


Galileo Computing

13.4.5 XML-Dokumente schreiben  toptop

Im Gegensatz zu DOM-orientierten APIs, bei denen das gesamte Dokument im Speicher vorliegt und verändert werden kann, ist es bei StAX nicht möglich, die vorhandene XML-Datei zu verändern. Es ist aber trotzdem möglich, XML zu schreiben. Auch hier wird zwischen der Cursor- und der Iterator-Variante unterschieden. Bei der Iterator-Variante werden Event-Objekte geschrieben, die entweder aus einem gelesenen XML-Dokument stammen oder mit einer XMLEventFactory erzeugt werden. Bei der Cursor-Variante wird mit einem XMLStreamWriter die XML-Komponente direkt erzeugt und geschrieben. In beiden Fällen wird über die XMLOutputFactory ein passender Writer erzeugt. Die Reihenfolge, in der die Komponenten geschrieben werden, entscheidet über den Aufbau des zu erzeugenden XML-Dokuments.

XMLStreamWriter

Zuerst zeigen wir, wie mit der Cursor-Variante eine XML-Datei geschrieben werden kann. Dazu erzeugen wir mit der XMLOutputFactory einen XMLStreamWriter, der die Elemente und Attribute direkt in eine XML-Datei schreibt.

Listing 13.10    com/javatutor/insel/stax/XMLStreamWriterDemo.java, main()

XMLOutputFactory factory = XMLOutputFactory.newInstance(); 
XMLStreamWriter writer = factory.createXMLStreamWriter(  
                                          new FileOutputStream( "c:/party.xml" )); 
// Der XML-Header wird erzeugt 
writer.writeStartDocument(); 
// Zuerst wird das Wurzelelement mit Attribut geschrieben 
  writer.writeStartElement( "party" ); 
    writer.writeAttribute( "datum", "31.12.01" ); 
    // Unter dieses Element wird das Element gast mit einem Attribut erzeugt 
    writer.writeStartElement( "gast" ); 
      writer.writeAttribute( "name", "Albert Angsthase" ); 
    writer.writeEndElement(); 
  writer.writeEndElement(); 
writer.writeEndDocument(); 
writer.close();

Es werden keine speziellen Objekte erzeugt, sondern direkt geschrieben. Das hat den Nachteil, dass es nicht möglich ist, bereits gelesene XML-Komponenten direkt in einen anderen Stream zu schreiben – und wenn sich Elemente wiederholen, wird Programmcode wiederholt.

Genau wie beim Lesen von XML-Dokumenten wird bei der Iterator-Variante mit Event-Objekten gearbeitet. Diese Objekte können aus einem gelesenen XML-Dokument stammen oder für die Ausgabe erzeugt werden. Das Erzeugen der Event-Objekte und das Schreiben der Objekte sind zwei unabhängige Schritte. Im folgenden Beispiel wird gezeigt, wie Event-Objekte erzeugt und dann mit einem Stream geschrieben werden.

XMLEventWriter

Bei der Iterator-Variante wird ebenfalls die Klasse XMLOutputFactory verwendet. Diesmal wird aber ein Objekt vom Typ XMLEventWriter erzeugt. Für die Elemente und Attribute, die in diesem Beispiel verwendet werden, wird eine XMLEventFactory verwendet.

Listing 13.11    com/javatutor/insel/stax/ XMLEventWriterDemo.java, main()

XMLOutputFactory outputFactory = XMLOutputFactory.newInstance(); 
XMLEventWriter writer = outputFactory.createXMLEventWriter( 
  new FileOutputStream( "c:/party.xml" )); 
XMLEventFactory eventFactory = XMLEventFactory.newInstance();

Die Klasse XMLEventFactory bietet ähnliche Methoden wie die Klasse XMLStreamWriter an. Hier wird jedoch ein XMLEvent-Objekt erzeugt, und die Reihenfolge beim Erzeugen hat keinen Einfluss auf die Reihenfolge in der Ausgabe.

XMLEvent header = eventFactory.createStartDocument();

Zuerst werden für das Wurzelelement das öffnende und schließende Tag sowie das Attribut datum erzeugt. Hierfür wird die Methode createStartElement() verwendet, weil diese hier am einfachsten einzusetzen ist.

XMLEvent startRoot = eventFactory.createStartElement( "", "", "party" ); 
XMLEvent datumAttribut = eventFactory.createAttribute( "datum", "31.12.01" ); 
XMLEvent endRoot = eventFactory.createEndElement( "", "", "party" ); 
 
XMLEvent startGast = eventFactory.createStartElement( "", "", "gast" ); 
XMLEvent name = eventFactory.createAttribute( "name",  "Albert Angsthase" ); 
XMLEvent endGast = eventFactory.createEndElement( "", "", "gast" ); 
XMLEvent endDocument = eventFactory.createEndDocument();

Um die Elemente zu schreiben, werden sie dem XMLEventWriter übergeben. Hier entscheidet die Reihenfolge über den Aufbau der XML-Datei.

// Schreiben der Struktur 
writer.add( header ); 
writer.add( startRoot ); 
    writer.add(datumAttribut); 
    writer.add( startGast ); 
      writer.add( name ); 
    writer.add( endGast ); 
  writer.add( endRoot ); 
writer.add( endDocument ); 
writer.close();

In diesem Beispiel wurde gezeigt, wie Events erzeugt werden können und wie Events geschrieben werden. Das Schreiben von Elementen aus einer Eingabe funktioniert analog. Falls sich Elemente wiederholen oder aus einer anderen Quelle stammen, können sie hier mit dem Writer geschrieben werden. Dies zeigt deutlich, dass die Iterator-Variante flexibler als die Cursor-Variante ist. Diese Flexibilität wird durch einen etwas höheren Aufwand erkauft.

Der Abschnitt zeigte, wie mit der StAX-API XML gelesen und geschrieben werden kann. Es wurden die Unterschiede zwischen der Cursor- und der Iterator-Variante gezeigt, und es wurden Filter für die Eingabe kurz vorgestellt. Grundsätzlich ist die Iterator-Variante die flexiblere Lösung und in den meisten Fällen performant genug. Sie ist in jedem Fall performanter als eine DOM-basierte Lösung, wenn nicht die gesamte XML-Struktur im Speicher benötigt wird. Die Cursor-Variante sollte gewählt werden, wenn hohe Verarbeitungsgeschwindigkeit und geringer Speicherverbrauch Priorität haben. Diese Variante ist insbesondere für Endgeräte mit wenig Speicher und geringer Rechenleistung die bessere Wahl.

Die Anwendungsgebiete der StAX-API sind die gleichen wie die der SAX-API, weil die Vorteile beider Verfahren Performance und geringer Speicherverbrauch sind. Für die meisten Programmierer ist diese Form der Verarbeitung einfacher als die SAX-Variante, weil der XML-Inhalt direkt gelesen wird. SAX hat den Vorteil, dass es weit verbreitet ist und in vielen Programmiersprachen zur Verfügung steht. Wir stellen SAX im folgenden Unterkapitel kurz vor.



Ihr Kommentar

Wie hat Ihnen das <openbook> gefallen? Wir freuen uns immer über Ihre freundlichen und kritischen Rückmeldungen.





 <<   zurück



Copyright © Galileo Press 2007
Für Ihren privaten Gebrauch dürfen Sie die Online-Version natürlich ausdrucken. Ansonsten unterliegt das <openbook> denselben Bestimmungen, wie die gebundene Ausgabe: Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Alle Rechte vorbehalten einschließlich der Vervielfältigung, Übersetzung, Mikroverfilmung sowie Einspeicherung und Verarbeitung in elektronischen Systemen.


[Galileo Computing]

Galileo Press, Rheinwerkallee 4, 53227 Bonn, Tel.: 0228.42150.0, Fax 0228.42150.77, info@galileo-press.de